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摘要 : 自然 的 远程 交互 一 直 是 人 们 追求 的 目标 。 随 着 普 适 计算 技术 和 宽频 网 络 技术 的 发 展 ， 在 互联 网 上 通 
过 远程 视频 实现 跨 地 区 交流 和 合作 成 为 可 能 。 但 是 ， 传 统 的 视频 对 话 系 统 视频 质量 差 、 操 作 复 杂 ， 影 响 了 
远程 交互 的 目 然 感 受 。 近 年 来 出 现 的 一 些 远程 呈现 技术 由 于 专注 于 提高 人 与 人 沟通 的 质量 ， 而 忽视 了 计算 
系统 正 由 人 机 共生 系统 转化 为 人 机 物 协调 社会 所 产生 的 需求 ， 因 此 难以 实现 人 机 物 之 间 的 自然 远程 交互 。 
为 了 营造 自然 的 沉浸 式 交 互 环 境 ， 让 参与 者 有 吴 临 其 境 的 感觉 ， 本 文 对 人 机 物 三 元 融合 端 计算 技术 进行 了 
研究 。 三 元 融合 端 计算 技术 是 一 种 以 用 户 为 中 心 实现 端 内 以 及 端 间 互 动 计算 的 技术 ， 有 具体 包括 端 内 的 人 - 
机 交互 和 机 物 协同 以 及 端 间 的 人 -机 -人 交互 、 人 -机 - 物 交 互 和 物 -机 - 物 交 互 计算 技 术 。 其 中 ， 端 指 一 个 由 人 、 
机 、 物 构成 的 三 元 微 世界 。 基 于 人 机 物 三 元 融合 端 计算 框架 ， 我 们 搭建 了 爱心 小 屋 远 程 杀 情 互 动 平台 ， 旨 
在 融合 沉浸 式 人 -人 交互 、 局 发 式 人 -机 交互 、 高 保 真 机 物 协 同 三 元 交互 技术 ， 提 供 一 个 面向 跨 地 区 交流 和 
合作 的 沉浸 式 、 易 操作 、 高 保 真 的 远程 自然 交互 端 平台 。 目 前 该 平台 已 经 成 功 在 一 个 打工 企业 和 一 个 村 委 
会 进行 一 期 部 署 ， 取 得 了 民 好 的 社会 效益 。 
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1 需求 背景 


随 着 社会 快速 发 展 , 跨 地 区 交流 和 合作 成 为 时 代 的 潮流 。 传统 的 远程 交互 需求 主要 集中 
在 远程 会 议 、 远 程 教育 和 远程 医疗 方面 。 然 而 ， 近 年 来 ， 由 于 外 出 务工 人 员 的 增多 ， 更 人 性 
化 的 远程 杀 情 互动 需求 也 提 上 日 程 。 据 国家 统计 局 普查 , 我 国外 出 农民 工 达 15863 万 人 , 而 
56.4% 的 农民 工 子 女 却 留 守 家 乡 ，70% 以 上 的 留守 儿童 一 年 只 能 与 父母 见 一 次 面 。 科 学 研究 
表明 , 父母 与 孩子 之 间 缺 乏 有 效 沟通 会 对 孩子 的 身心 成 长 产生 不 恨 影响 , 也 不 利于 父母 的 心 
理 健康 , 甚至 影响 到 整个 社会 的 和 谐 发 展 ,为 了 改善 其 成 员 受 到 地 域 阻隔 的 家 庭 的 交流 现状 ， 
提升 跨 地 区 交流 和 合作 的 效率 ， 目 然 有 效 的 远程 交互 方式 成 为 社会 的 重要 需求 。 目 前, 远程 
交互 主要 通过 电话 和 远程 视频 实现 。 


由 于 电话 只 能 呈现 远程 用 户 的 声音 , 因此 很 难 实现 自然 有 效 的 远程 交互 。 现 有 的 视频 对 
话 系 统 则 受到 设备 障碍 、 眼 神 交 流 缺 失 、 环 境 光 照 无 法 控制 、 网 络 带宽 受 限 的 影响 ,难以 提 
供 跨 地 区 人 们 之 间 自 然 的 “面对面 ”交流 体验 ; 另外 ， 由 于 操作 复杂 ， 在 用 户 与 设备 之 间 造 
成 了 技术 壁垒 ; 并 且 ， 由 于 图 像 分 辨 京 和 设备 异 构 的 限制 ,很 难 实现 远程 用 户 之 间 的 物品 信 
县 分 享 和 情境 融入 。 因 此 或 需 一 种 有 效 地 切实 改善 远程 用 户 之 间 沟 通 交 流 的 互动 平台 。 近年 
来 发 展 的 远程 视频 交互 技术 , 肯 在 通过 真人 大 小 的 高 请 视频 和 高 保 真 的 立体 音频 ， 以 及 全 景 
场景 拼接 ， 增 加 人 与 人 之 间 远 程 沟通 的 沉浸 性 。 但 是 由 于 操作 复杂 ,用户 很 难 全 身心 地 关注 
谈话 内 容 本 映 ; 另 一 方面 ， 由 于 具 考 虑 到 用 户 的 音 视频 交互 ， 仍 然 无 法 满足 用 户 分 享 物品 以 
及 融入 和 改变 对 方 生 活 情境 的 愿望 ， 再 次 ， 由 于 设备 昂贵 ， 且 需 搭建 专用 网 络 ， 无 法 实现 大 
范围 的 有 效 履 盖 , 难以 推广 。 总 体 而 言 , 现 有 的 远程 交互 方式 都 只 是 构建 在 人 机 共生 系统 上 ， 
只 能 实现 简单 的 人 -机 -人 交互 ， 而 忽视 了 计算 系统 正 由 人 机 共生 系统 转化 为 人 机 物 协 调 社会 
的 趋势 ， 因 此 很 难 满足 目 然 的 远程 交互 需求 。 
l 


用 向 远程 自然 交互 的 人 机 物 三 元 融合 端 计算 


2 “远程 目 然 交互 系统 愿景 


理想 的 远程 自然 交互 系统 应 该 是 一 种 针对 人 机 物 协 调 社 会 设计 的 , 以 人 为 中 心 , 能 够 最 
大 程度 拉 近 远程 交互 双方 距离 的 交互 系统 。 在 技术 层面 上 ， 远程 自然 交互 系统 ， 应 该 充分 考 
虑 人 机 物 三 元 结构 的 互动 计算 技术 , 以 期 实现 远程 交互 像 在 同一 个 物理 空间 的 面对面 交流 一 
样 自 然 的 愿景 。 具 体 而 言 ， 远 程 目 然 交 互 系 统 应 该 符合 以 下 特点 : (1) 系统 应 满足 低 成 本 、 
易 推 广 的 要 求 ， 能 实现 广泛 覆盖 ， 有 效 建立 需要 进行 跨 地 区 办 公 、 教 学 、 医 疗 以 及 亲情 互动 
的 人 们 之 间 的 联系 ;(2) 系统 要 能 够 提供 丰富 、 副 真 的 体验 效果 ， 能 在 通用 的 网 络 环境 状态 
下 实现 流畅 的 高 质量 的 视 音 频 交 互 ， 且 能 让 远程 用 户 融 入 到 同一 个 虚拟 环境 ,并 支持 对 人 们 
的 注意 力 具 有 重要 影响 的 眼神 交流 , 使 得 远程 交互 接近 真实 场景 , 让 交互 双方 在 互动 过 程 中 
获得 恨 好 的 沟通 体验 ， 提 高 沟通 的 效果 ; 〈3) 系统 要 能 实现 远程 物体 之 间 的 有 效 互动 ， 将 交 
互 双方 的 物理 世界 紧密 联系 起 来 ,并 进行 协调 控制 , 保证 物理 世界 的 同步 和 统一 ;(4) 系统 
要 能 实现 人 与 远程 物体 的 有 效 互动 , 使 得 人 可 以 融入 到 远程 的 物理 情境 ， 并 通过 操控 远程 物 
体 ， 改 善 远 程 交 流 的 能 动 性 ; (5) 系统 应 易于 操作 ， 具 备 恨 好 的 人 -机 交互 方式 ， 使 得 双方 
的 注意 力 集中 在 谈话 内 容 本 身 ， 而 不 致 受到 复杂 操作 的 束缚 ,系统 的 交互 方式 应 像 人 与 人 之 
间 的 交流 一 样 目 然 ; (6) 系统 要 能 在 互动 过 程 中 为 双方 提供 足够 的 信息 ， 使 双方 的 沟通 能 够 
持久 、 深 入 ， 应 该 满足 远程 用 户 之 间 分 部 物品， 文件 材料 或 生活 照片 以 及 娱乐 视频 的 需要 ， 
丰富 谈话 内 容 ， 增 强 趣味 性 。 总 之 ,理想 的 远程 自然 交互 系统 需要 充分 挖 据 人 机 物 三 元 互动 
的 机 理 ， 这 对 计算 模式 提出 了 新 的 挑战 。 
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图 1. 三 元 融合 端 计 算 示 意 网 


针对 远程 卓然 交互 系统 的 特点 及 其 对 计算 模式 提出 的 挑战 , 本 文 提 出 一 种 人 机 物 三 元 融 
合 端 计算 技术 ， 以 期 通过 计算 网 络 实现 人 与 人 之 间 、 物 与 物 之 间 以 及 人 与 物 之 间 的 自然 远程 
沟通 和 有 效 互动 。 人 机 物 三 元 融合 端 计算 技术 是 一 种 以 用 户 为 中 心 实现 端 内 和 端 间 互 动 的 计 
算 技术， 包括 端 内 的 人 -机 交互 和 机 物 协同 以 及 端 间 的 人 -机 -人 交互 、 物 -机 - 物 交 互 和 人 -机 - 
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物 交 互 计 算 拉 术 。 其 中 “ 病 ” 指 一 个 地 方 的 人 、 机 、 物 构成 的 三 元 世界 ， 如 图 1 所 示 。 三 元 
世界 是 对 计算 的 一 种 新 理解 和 新 的 思维 模式 。 区 别 于 以 往 的 一 人 一 机 组 成 的 、 分 工 明确 的 人 
机 共生 计算 系统 ， 三 元 世界 是 由 计算 世界 、 物 理 世 界 、 人 类 社会 组 成 的 人 机 物 协 同 社会 ， 是 
一 个 多 人 多 机 多 物 组 成 的 动态 开放 协同 工作 的 网 络 社会 。 计 算 系 统 的 变革 ， 要 求 计算 模式 也 
发 生 新 的 范式 变革 ， 三 元 计算 的 概念 就 此 应 运 而 生 。 三 元 计算 是 一 种 综合 利用 物理 世界 、 赛 
博 空间 〈Cyberspace)、 人 类 社会 的 资源 ， 通 过 人 机 物 融合 合作 完成 计算 任务 的 计算 范式 ， 
目的 是 实现 互联 网 、 物 联网 和 社会 网 的 新 三 网 融合 ， 实 现 信息 资源 与 物理 资源 、 社 会 资源 的 
有 效 互动 和 综合 利用 。 三 元 融合 端 计算 作为 三 元 计算 的 一 个 具体 实现 ,主要 用 于 提供 远程 的 
人 机 物 互动 。 三 元 计算 融入 了 “人 联网 ”技术 ， 物 联网 技术 和 泛 在 网 技术 ， 能 够 基于 个 人 和 
社会 的 需求 ， 实 现 人 与 人 、 人 与 物 、 物 与 物 之 间 在 任何 地 点 按 需 进行 的 信息 获取 、 传 递 、 存 
储 、 认 知 、 决 策 、 使 用 等 功能 ， 有 共有 很 强 的 环境 感知 、 内 容 感知 能 力 和 沉浸 性 、 智 能 性 ， 为 
个 人 和 社会 提供 无 所 不 在 的 ， 符 合 日 常生 活 习 惯 的 信息 服务 和 应 用 。 


4 三 元 融合 端 计 算 示 范 应 用 一 一 爱心 小 屋 


4.1 系统 概述 


针对 远程 自然 亲情 互动 的 需求 , 基于 三 元 融合 端 计算 技术 的 理论 研究 成 果 , 我 们 搭建 了 
爱心 小 屋 远程 亲情 互动 示范 平台 , 以 期 加 强 地 域 阻 陋 家 庭 之 间 的 杀 情 互动 , 尤其 是 农民 工 与 
家 人 之 间 的 亲情 互动 , 琉 导 、 绥 解 农 民工 在 长 期 异地 工作 过 程 中 所 形成 的 情感 及 心理 健康 问 
题 ， 改 善 留守 子女 的 教育 及 留守 老人 的 健康 ， 为 创新 社会 管理 模式 提供 一 种 新 的 途径 。 爱 心 
小 屋 远 程 杀 情 互 动 示范 平台 是 一 个 基于 智能 电视 机 及 宽带 网 络 的 集成 人 机 物 三 元 结构 的 远 
星 交 流 系统 。 它 可 以 实现 简便 易 操 作 的 、 上 自然 状态 的 远 距 离 可 视 交 流 。 该 系统 以 三 元 融合 端 
计算 技术 为 框架 ， 开 发 了 沉 漫 式 人 -人 交互 、 局 发 式 人 -机 交互 、 高 保 真 机 物 协同 等 具体 核心 
技术 。 其 中 ， 人 -人 交互 部 分 通过 对 虚实 融合 技术 、 上 自然 的 眼神 交互 技术 、 音 频 处 理 技术 、 
以 及 面向 用 户 体验 的 流畅 传输 技术 的 研究 实现 跨 地 区 人 们 之 间 的 沉浸 式 “ 面 对 面 ”交流 ; 人 - 
机 交互 部 分 通过 简单 自然 ,符合 用户 操作 习惯 的 手势 操控 界面 的 研究 实现 人 与 设备 之 间 的 快 
速 交 互 ; 机 物 交 互 协同 部 分 通过 跨 设 备 协同 、 高 质 图 文 共享 技术 、 环 境 智 能 协同 技术 实现 跨 
地 区 人 们 之 间 的 信息 共享 和 情感 互动 。 本 系统 的 创新 点 在 于 :(1) 应 用 模式 : 本 系统 是 第 一 
个 针对 农民 工 及 其 留守 子女 和 老人 等 弱势 群体 的 大 型 社会 管理 应 用 ; (2) 集成 : 本 系统 是 第 
一 个 集成 人 机 物 三 元 结构 的 新 型 系统 ; (3) 技术 : 本 系统 融合 了 沉浸 式 人 -人 交互 、 启 发 式 
人 -机 交互 、 高 保 真 机 物 协同 技术 ， 其 中 ， 远 程 沉浸 式 人 -人 交互 技术 主要 解决 “面对面 ” 交 
流 问 题 ， 启 发 式 目 然 人 -机 交互 界面 技术 主要 解决 易 操 作 问 题 ， 高 保 真 机 物 协同 技术 主要 解 
决 不 同 设备 的 互 操作 及 协同 问题 。 本 系统 技术 发 展 的 总 体 思路 和 目标 是 : 致力 于 三 项 核心 体 
系 及 七 项 核心 子 技术 的 研发 ， 并 在 示范 平台 上 推广 应 用 ， 以 消除 地 域 阻隔 ， 为 异地 人 和 群 营造 
一 个 “面对面 ?的 沟通 及 社交 环境 ， 让 所 有 成 员 自 然 地 身 临 其 境 交 流 ， 满 足 现代 人 对 快 节奏 、 
个 性 化 、 舒 适 生活 的 追求 。 


4.2 主要 功能 及 关键 技术 


系统 的 主要 功能 如 图 2 所 示 。 
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图 2. 面向 远程 沉 温 式 交互 的 三 元 交互 终端 系统 功能 


4.2.1 沉浸 式 人 -人 目 然 交互 技术 


沉浸 式 人 -人 交互 技术 主要 是 通过 视 音 频 增 强 处 理 技术 实 现 自 然 的 远程 交流 ， 包 括 四 项 
子 技术 ， 即 : 〈1) 基于 精准 对 象 分 割 的 虚实 融合 视频 合成 技术 ; 〈2) 基于 深度 伪 三 维 (3D) 
信息 合成 的 自然 眼神 交互 技术 ; (3) 面 向 异 构 网 络 和 终端 的 沉浸 式 视频 用 户 体验 目 适 应 技术 ; 
(4) 沉浸 式 高 保 真 音频 交互 技术 。 


其 中 基于 精准 对 象 分 割 的 虚实 融合 视频 合成 技术 主要 研究 在 线 视频 分 割 技术 以 及 虚实 
融合 技术 。 在 线 视频 分 割 技 术 旨 在 实时 、 准 确 地 从 在 线 视 频 中 提取 出 前 景 。 本 技术 给 出 一 种 
基于 混合 摄像 头 的 分 割 方法 : 首先 基于 深度 传感器 获取 的 深度 信息 实现 前 景 的 粗 分 割 , 再 结 
合 彩色 图 像 提供 的 颜色 、 边缘 信 息 给 出 一 种 多 模 决 俩 融合 的 边界 修正 算法 。 虚实 融合 技术 的 
实质 是 将 计算 机 制作 的 虚拟 场景 与 实时 分 割 的 前 景 对 象 进行 数字 化 的 实时 合成 , 使 人 物 与 虚 
拟 背 景 能 够 天 衣 无 颖 地 融合 ， 以 获得 完美 的 合成 画面 。 本 技术 还 给 出 一 种 自 适应 的 摄像 头 对 
齐 方法 ,并 根据 前 景 距离 真实 摄像 头 的 深度 信息 , 估算 出 前 景 在 当前 虚拟 场景 中 的 缩放 比例 ， 
使 得 融合 的 效果 不 产生 畸变 ; 同时 本 技术 研究 一 种 基于 Lab 空间 的 光照 一 致 图 像 合成 方法 ， 
实现 前 景 图 像 和 虚拟 场景 图 像 的 真实 自然 融合 , 使 得 远程 交互 的 双方 能 够 融入 到 统一 的 虚拟 
环境 ， 创 造 一 种 “在 一 起 ”的 交互 体验 。 


基于 深度 伪 三 维 信息 合成 的 自然 眼神 交互 技术 , 旧 在 对 偏离 摄像 头 的 视线 进行 矫正 ， 以 
达到 直 视 的 效果 。 在 传统 的 远程 视频 交互 系统 中 ， 摄 像 头 一 般 置 于 视频 屏幕 上 方 , 在 本 地 和 
远程 视频 之 间 的 双向 眼神 交互 难以 实现 。 为 了 实现 自然 眼神 交流 , 本 技术 提出 一 种 普 适 化 的 
基于 虚拟 视角 的 视线 矫正 方法 。 该 视线 矫正 方法 设计 了 一 个 能 自 适 应 用 户 不 同位 置 的 虚拟 坐 
标 系 及 基于 此 虚拟 坐标 系 的 几何 模型 ,通过 将 实际 坐标 系 下 的 三 维 点 云 数 据 转换 到 虚拟 坐标 
系 下 ， 并 重 投影 到 二 维 虚拟 成 像 平面 ,达到 矫正 头 部 和 视线 的 效果 ， 使 对 方 感到 说 话 者 的 视 
线 是 向 着 日 己 的 。 


面向 异 构 网 络 和 终端 的 沉浸 式 视频 用 户 体 验 日 适应 技术 主要 包括 面向 异 构 终端 的 沉浸 
式 视频 用 户 体 验 质 量 模型 和 非 对 称 禹 宽 的 多 通道 自 适 应 视频 传输 技术 。 用户 体验 质量 (QoE， 
Quality of Experience) 定义 为 用 户 可 以 感知 的 服务 质量 。 本 技术 针对 以 寞 构 为 特点 的 复杂 的 
网 络 环境 给 出 一 种 用 户 体验 质量 的 评价 模型 。 该 模型 从 用 户 角度 , 将 异 构 网 络 中 多 域 信息 分 
解 为 四 个 关键 属性 维度 : 可 用 性 、 会 话 质量 、 服 务 延 迟 和 安全 性 ， 统 称 为 关键 质量 指标 。 多 
通道 视频 传输 就 是 在 传输 过 程 中 利用 多 条 传输 通道 来 传输 一 路 或 者 儿 路 视频 信息 的 方法 ,为 


1 Lab color space， 一 种 互补 色 空 间 ， 具 有 三 个 维度 : 亮度 ( 工 ) 及 a, b 两 个 互补 色 维 度 
4 


第 12 卷 第 2 期 言 息 技术 快报 Vol.12 No.2 

Information Technology Letter Apr 2014 
了 补偿 多 通道 视频 传输 资源 的 小 时 间 尺 度 的 波动 ， 本 技术 采用 实时 的 视频 /音频 /多 业务 目 适 
应 平 请 系统 ， 以 便 在 最 多 的 视频 /音频 /多 业务 数据 目 适 应 中 获得 最 好 的 传输 质量 。 


沉浸 式 高 保 真 音频 交互 技术 主要 研究 基于 远 距 离 麦 克 风 或 麦 殉 风 阵列 的 语音 采集 及 处 
理 和 基于 麦克 风 阵 列 的 说 话 人 定位 以 及 音频 场景 建 模 和 还 原 技 术 。 本 技术 采用 远 距 离 麦 元 风 
或 麦克 风 阵 列 采 集 语音 ， 避 人 免 用 户 手 持 或 佩戴 麦克 风 以 及 传递 话 简 或 开关 话 简 的 额外 操作 ， 
实现 自由 、 免 操作 的 用 户 体 验 。 同时 , 研究 语音 增强 、 回 声 消除 、 自 动 增益 等 语 首 处 理 算法 ， 
使 待 传输 的 语音 清晰 ， 音 量 适 中 。 另 外 ， 本 技术 采用 麦 殉 风 阵 列 确定 说 话 人 的 方向 和 距离 ， 
并 结合 声音 信和 号 传播 模型 ， 为 真实 音频 场景 建 模 ， 计 算出 一 组 模型 参数 ， 将 其 随 一 路 音频 信 
号 共同 传输 至 远程 端 ; 在 远程 端 再 将 模型 参数 还 原 ， 采用 多 个 音频 输出 设备 产生 具有 位 置 感 
的 沉 温 式 音频 。 


4.2.2 局 发 式 人 -机 交互 技术 


局 发 式 人 -机 交互 技术 主要 是 通过 启发 式 操作 界面 以 及 基于 寞 构 传感器 和 反馈 特性 的 手 
势 交 互 技 术 实现 日 然 的 人 -机 交互 。 主 要 包含 三 项 子 技术 : (1) 启发 式 操作 界面 自 适应 技术 ; 
(2) 基于 双 通 道 深度 信息 建 模 的 手指 精确 检测 技术 ; (3) 基于 具有 反馈 特性 的 运动 传 感 需 
交互 技术 。 


由 于 农民 工 、 留 守 老 人 和 儿童 群体 往往 对 计算 机 等 新 技术 具有 陌生 感 和 排斥 感 ， 面 对 鼠 
标 、 键 盘 束 手 无 策 。 为 了 能 够 将 现代 化 信息 技术 造福 于 这 一 特殊 的 群体 、 使 他 们 彼此 之 间 进 
行 的 跨 地 域 感情 交流 更 加 方便 易 行 , 本 技术 通过 引入 局 发 式 目 适应 学 习 算 法 和 利用 已 经 具备 
的 用 户 背 景 知识 , 研究 启发 式 键盘 手势 输入 技术 、 用 户 意图 隐 状 态 感 知 学 习 技 术 和 操作 界面 
自 适 应 调整 技术 ， 来 实现 能 够 针对 特定 人 进行 目 适 应 调整 的 局 发 式 操作 界面 。 


在 启发 式 操作 界面 中 , 手指 检测 是 技术 关键 之 一 。 现 有 的 手指 检测 算法 大 多 是 针对 二 维 
摄像 头 采 集 的 RGB 数据 ， 容 易 受 到 背景 颜色 和 肤色 的 影响 ， 并 且 要 求 用 户 的 手掌 要 尽量 伸 
直 张 开 且 与 二 维 摄像 头 的 采集 方向 垂直 ， 这 影响 了 人 -机 交互 的 自然 性 。 因 此 ， 本 技术 利用 
双 三 维 摄像 头 , 研发 双 三 维 摄像 头 坐标 系 与 现实 世界 坐标 系 的 对 齐 方法 、 双 三 维 摄像 头 深度 
信息 的 协同 采集 与 融合 方法 、 基 于 球体 模型 的 人 手 分 割 方法 、 以 及 基于 双 通 道 深 度 信 息 建 模 
的 手指 精确 检测 方法 ， 使 手指 识别 能 够 不 受 背 景 颜色 、 肤 色 、 手 掌 形状 和 方向 的 影响 ， 以 增 
强人 -机 交互 的 自然 性 和 用 户 的 体验 感 。 


为 了 在 保持 较 高 识别 精度 的 同时 增强 平台 的 交互 性 和 用 户 真实 的 体验 感 , 本 技术 将 集成 
基于 加 速度 计 和 陀螺 仪 的 运动 传感器 ， 并 使 其 具有 振动 、 力 反馈 、 放 电 等 反馈 特性 ; 研究 多 
源 反馈 数据 的 协同 感知 与 处 理 技术 和 多 源 反 馈 数据 的 融合 决策 机 制 , 使 用 户 同时 具有 不 同 的 
触感 , 以 进一步 增强 用 户 真 实 的 体验 感 。 同 时 , 为 了 实现 对 平台 设备 的 控制 和 对 信息 的 选择 ， 
本 技术 将 研究 基于 多 源 反馈 数据 的 手势 识别 技术 ， 用 于 实现 对 用 户 手势 动作 的 精确 识别 。 


4.2.3 高 保 真 机 物 协同 技术 


高 保 真 机 物 协同 技术 主要 是 通过 路 设备 互联 , 高 清 疼 文 共享 和 环境 协同 控制 技术 实现 丰 
富 的 远程 交流 。 主 要 包含 三 项 子 技术 :〈1) 跨 设 备 多 屏 共享 呈现 技术 ;(2) 基于 视频 序列 的 
超 分 辨 紊 图像 重 构 技术 ; (3〉 面向 视频 序列 的 多 光源 协同 控制 技术 。 


跨 设 备 多 屏 共 享 呈 现 技术 主要 包括 多 协议 语义 互 译 与 设备 互联 ,资源 共享 呈现 系统 以 及 
基于 混合 图 像 编 码 的 远程 屏幕 共享 技术 。 多 协议 语义 互 译 与 设备 互联 技术 主要 用 于 实现 针对 


“” 红 绿 蓝 三 原色 人 


llk 


号 


用 向 远 程 目 然 交互 的 人 机 物 三 元 融合 并 计算 


网 络 电 视 、 摄 像 关 和 智能 手机 的 基本 互联 功能 和 扩展 互联 功能 。 基本 互联 功能 实现 基于 Wifi 
和 蓝牙 《Bluetooth)〉 协 议 的 语义 互 译 ， 文 持 Wifi 和 蓝牙 设备 互联 互 操作 ; 扩展 互联 功能 将 
文 持 更 为 广泛 的 IGRS/UPnP 协议 的 语义 互 译 ， 和 针对 远程 互动 平台 的 功能 扩展 ， 文 持 更 广泛 
的 设备 互联 互 操作 。 资 源 共享 呈现 系统 主要 完成 沉浸 式 交 互 与 资源 共享 的 同步 响应 机 制 、 沉 
浸 式 交 互 与 共享 资源 呈现 系统 的 GUI 融合 机 制 。 基 于 混合 图 像 编码 的 远程 屏幕 共享 将 研究 
实现 高 清 混合 图 像 编码 算法 、 计 算 机 桌面 图 像 序列 编码 算法 、 高 效 截 屏 技 术 和 消除 编码 效应 
的 后 处 理 技术 ， 实 现 融 效 截屏 和 屏幕 共享 。 


基于 视频 序列 的 超 分 辨 紊 图像 重 构 技术 是 一 个 图 像 序列 重建 的 处 理 过 程 ， 具 体 描述 如 
下 : 如 果 我 们 在 不 同 条 件 下 担 摄 得 到 儿 幅 上 共有 相同 场景 的 模糊 且 有 噪声 的 低 分 辩 紊 图像 ， 且 
这 些 同一 场景 的 多 张 图 片 均 可 使 用 , 每 一 帧 相对 于 所 选择 的 参考 帧 都 会 有 位 移 , 在 这 种 条 件 
下 将 它们 集中 进行 融合 处 理 , 使 其 合成 一 幅 或 多 幅 高 品质 的 超 分 状 率 图像 ( 即 分 辨 紊 高 于 原 
始 图 像 )， 所 重建 的 结果 与 任何 一 幅 原 始 输 入 图 像 相 比 ， 品 音 和 图 像 模 糊 的 现象 都 减少 了 ， 
从 而 可 以 获取 更 多 原始 场景 的 细节 。 本 技术 中 的 超 分 辨 率 重 建 方法 主要 包括 以 下 三 个 环节 : 
(1) 运动 估计 〈 对 低 分 辨 率 图 像 序 列 进行 运动 估计 ,得 出 帧 与 帧 之 间 的 运动 侦 移 关系 )《〈2) 
插值 重建 〈 利 用 运动 估计 得 到 的 配 准 参数 重建 图 像 )、(3) 去 模糊 去 噪 ， 最 终 得 出 所 估计 的 
超 分 辩 率 图 像 。 


面向 视频 质量 的 多 光源 协同 控制 搁 术 则 在 对 采集 视频 进行 实时 分 析 , 进而 协同 控制 前 景 
光源 ， 实 现 环境 光 的 平衡 ， 以 提高 交互 视频 的 质量 ， 增 强 用 户 体验 。 主 要 包括 〈1) 基于 视 
频 分 析 的 环境 光平 衡 度 评估 方法 : 利用 远程 杀 情 互动 平台 实时 采集 的 用 户 视频 ， 从 中 提取 用 
户 的 人 脸 图 像 ， 并 根据 人 脸 图 像 左 、 右 两 侧 的 灰 度 值 来 估计 环境 光照 强度 ， 并 据 此 计算 环境 
光 的 平衡 度 ; (2) 基于 环境 光平 衡 度 的 多 光源 协同 控制 集 略 : 根据 评估 得 到 的 环境 光平 衡 度 ， 
结合 前 景 光 源 各 亮度 等 级 的 光照 强度 ,通过 使 环境 光 差 异 度 函 数 最 小 化 来 估计 各 前 景 光 源 的 
合适 等 级 ， 并 据 此 对 前 景 光 源 进行 控制 。 


4.3 典型 应 用 场景 


“爱心 小 屋 "” 远 程 亲 情 互动 系统 集成 了 人 机 物 三 元 结构 ， 并 融合 了 多 项 技术 成 果 ， 能 
够 很 好 地 满足 远程 交互 需求 ， 可 应 用 到 多 个 场景 , 诸如 全 家 一 起 过 年 、 留 守 儿 童 远程 教育 和 
留守 老人 远程 医疗 等 。 


4.3.1 全 家 一 起 过 年 


“全 家 一 起 过 年 ”是 爱心 小 屋 示 范 应 用 系统 一 个 重要 的 应 用 场景 。 由 于 工作 老 忙 或 春运 
紧张 ,在 异地 工作 的 农民 工 经 常 不 能 与 家 人 团聚 。 此 时 ， 可 以 通过 在 线 视 频 分 割 技术 和 视频 
合成 技术 将 外 出 人 员 与 家 人 融入 到 同一 张 饭桌 前 , 让 他 们 在 不 同 地 点 共同 感受 共聚 年 夜饭 的 
团圆 ， 举 杯 同 庆 ， 互 赠 祝福 ， 分 享 喜 悦 ， 并 可 以 通过 合影 留念 ， 记 住 美 好 瞬间 : 同时 ， 通 过 
眼神 交互 技术 使 得 每 个 家 庭 成 员 感受 到 其 他 杀人 的 关注 ,解决 他 们 的 情感 区 碍 问题 。 而 面 癌 
用 户 体 验 的 自 适 应 传输 技术 犹如 稳固 的 桥墩 ,为 这 份 虚拟 的 沟通 桥梁 提供 坚实 的 后 盾 。 男 外 ， 
高 保 真 的 音频 交互 技术 将 使 得 家 庭 成 员 可 以 如 面对面 交流 一 样 开 怀 畅谈 ， 局 发 式 的 人 -机 交 
互 技术 将 减少 家 庭 成 员 因 技术 知识 的 匮乏 引发 的 手足 无 措 的 操作 , 而 高 保 真 的 机 物 协同 技术 
将 使 异地 阻隔 的 家 庭 成 员 方便 地 分 享 手机 中 拍摄 的 报 平安 的 微 视 频 以 及 送 祝福 的 精美 次 卡 。 


4.3.2 留守 儿童 远程 教育 


” Graphics User Interface， 图 形 用 户 界面 
““ 爱 心 小 屋 ” 是 基于 本 文 所 述 技术 的 平台 示范 项 目 
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对 留守 儿童 的 远程 教育 是 爱心 小 屋 示范 应 用 系统 男 一 个 重要 的 应 用 场景 .主要 是 通过 利 
用 城市 或 繁华 地 区 的 教育 资源 ， 采用 远程 交流 的 方式 ,对 留守 儿童 进行 综合 教育 , 培养 留守 
儿童 自信 、 上 自强 和 合作 的 人 生态 度 。 通 过 面向 用 户 体验 的 自 适 应 传输 技术 可 以 实现 远程 教师 
和 孩子 之 间 无 障碍 的 交流 ， 让 留守 儿童 有 机 会 接受 教育 辅导 ， 提 高 他 们 的 综合 素质 和 能 
视线 矫正 技术 可 以 让 孩子 感受 到 教师 关切 的 眼神 ,增强 孩子 学 习 的 积极 性 和 主动 性 ,实时 准 
确 的 虚实 融合 技术 可 以 让 教师 和 和 孩子 置身 各 种 虚拟 的 学 习 和 游戏 场景 , 让 他 们 犹如 在 同一 个 
场景 互动 ,促进 教师 和 孩子 之 间 的 交流 。 另 外 ,孩子 们 还 可 以 通过 高 清 图 文 共享 技术 传递 目 
己 的 作业 ， 提 交 给 教师 查阅 和 指正 。 


4.3.3 留守 老人 远程 医疗 


对 留守 老人 的 远程 医疗 是 爱心 小 屋 示范 应 用 系统 的 又 一 个 重要 应 用 场景 ,由 于 农村 医疗 
条 件 沙 后 以 及 老人 自身 行动 不 便 ， 当 留守 老人 的 身体 出 现 异 常 时 ,很 难 及 时 就 医 。 此 时 ，, 通 
过 面向 用 户 体验 的 自 适 应 传输 技术 提供 的 高 质量 视频 ， 可 以 快速 实现 远程 的 医疗 咨询 和 诊 
岂 ， 并 能 通过 实时 视频 演示 以 零 学 习 的 方式 让 老人 接受 科学 保健 。 辅 之 虚实 融合 技术 还 可 以 
让 病房 变换 成 家 星 住 所 ,避免 老人 对 医院 的 丽 居 , 使 他 们 能 够 更 自然 地 向 医生 阐述 他 们 的 喘 
体 状况 。 同 时 ， 视 线 矫正 技术 可 以 唤起 老人 表达 的 欲望 ， 促 进 老 人 和 医生 之 间 的 有 效 沟通 。 
男 外 ， 老人 还 可 以 通过 手机 录制 他 们 的 生活 状况 ， 并 采用 跨 设备 互联 技术 ,将 这 些 信息 传输 
给 医生 ， 以 详尽 地 描述 病情 ， 为 医生 的 诊断 提供 事实 根据 。 


4.4 研发 成 果 及 部 署 


经 过 对 三 元 融合 端 计算 技术 的 深入 研究 , 我 们 在 人 -人 交互 、 人 -机 交互 和 机 - 物 协同 等 方 
面 实 现 了 系列 理论 创新 和 技术 突破 ， 在 人 -人 交互 功能 部 分 ， 主 要 实现 了 一 种 基于 混合 摄像 
头 的 精准 、 鲁 棒 的 在 线 视频 分 割 方法 ， 并 将 其 应 用 到 “我 的 快照 ”和 “远程 合拍 ”两 个 系 
统 功 能 ， 同 时 实现 了 一 种 用 户 意 图 驱动 的 视频 合成 方法 ， 并 应 用 于 “远程 合拍 ”系统 功能 ; 
实现 了 一 种 基于 虚拟 视角 的 视线 矫正 方法 , 可 提供 自然 的 眼神 交互 ; 提出 了 一 种 基于 分 辨 率 
和 帧 速率 的 自 适应 传输 方法 ， 可 保证 寞 构 网 络 环境 下 的 流畅 视频 传输 ， 采 用 远 距 离 关 克 风 ， 
实现 了 语 首 采集 和 语 首 增强 、 自 动 增益 等 音频 处 理 功 能 。 在 人 -机 交互 功能 部 分 ， 实 现 了 一 
种 九宫 格式 的 启发 式 自 适应 输入 界面 , 同时 给 出 了 一 种 基于 双 通 道 球 模型 的 精确 手指 检测 算 
法 以 及 基于 手指 检测 的 手势 奶 踪 与 识别 算法 ， 并 成 功 应 用 于 “图 片 浏览 控制 ”系统 功能 ， 可 
轻松 实现 图 片 的 浏览 。 在 机 物 协同 功能 部 分 , 主要 给 出 了 一 种 基于 二 又 树 了 预测 的 图 像 编 解码 
方法 , 通过 对 操作 台 上 的 采集 图 像 进行 编码 、 传 输 和 解码 ,实现 了 跨 设备 《电视 、 智 能 手机 ) 
图 像 远 程 重 定向 功能 ， 同 时 对 采集 的 , 

低 分 辨 紊 图 像 序 列 进行 超 分 辨 率 重 
建 ， 实 现 了 高 清 图 文 共享 功能 ， 另 外 ， 
给 出 了 一 种 基于 视频 质量 的 灯光 控制 
算法 , 实现 了 多 光源 的 协同 控制 功能 。 
基于 上 述 技术 成 果 ， 我 们 搭建 了 爱心 
小 屋 远 程 杀 情 互 动 系 统 的 示范 平台 ， 
并 在 郑州 打工 企业 和 河南 生产 力促 进 图 3. 打工 企业 和 河南 生产 力促 进 中心 部 署 网 
中 心 进行 了 一 三 一 村 试点 。 部 著 在 郑 

州 打工 企业 样板 间 员 工 宿 舍 ， 经 来 自打 工 企业 19 个 园区 、15 个 事业 群 的 技能 之 星 ， 累 计 百 
多 人 次 的 打工 企业 员工 及 河南 政府 人 员 试 用 , 获得 较 好 评价 。 图 3 显示 了 两 个 地 方 的 实地 部 
署 情况 。 


有 向 远程 目 然 交 互 的 人 机 物 三 元 融合 并 计算 


本 文 介绍 了 远程 自然 交互 系统 的 背景 及 需求 , 展望 了 远程 自然 交互 系统 的 愿景 ,介绍 了 
面向 远程 自然 交互 的 人 机 物 三 元 融合 端 计算 技术 , 并 详细 描述 了 该 技术 的 应 用 示范 平台 一 爱 
心 小 屋 远程 亲情 互动 系统 的 技术 构成 和 应 用 情况 。 人 机 物 三 元 融合 端 计算 技术 的 研究 仍 处 于 
初级 阶段 ， 我 们 将 在 以 后 进一步 对 该 技术 进行 深入 研究 和 探讨 ， 以 实现 跨 地 区 的 自然 远程 交 
流 ,使 得 更 多 的 美好 故事 走 入 远程 家 庭 和 远程 办 公 人 员 的 生活 ,为 他 们 的 身心 健康 及 工作 效 
率 带 来 福音 。 
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